Обзор и ландшафт архитектурной эволюции

Мы переходим от фундаментального успеха AlexNet к эпохе сверхглубоких сверточных нейронных сетей (CNN). Этот сдвиг потребовал глубоких архитектурных инноваций для работы с экстремальной глубиной при сохранении стабильности обучения. Мы проанализируем три ключевые архитектуры —VGG, GoogLeNet (Inception), и ResNet—понимая, как каждая из них решала различные аспекты проблемы масштабирования, заложив основу для строгой интерпретации моделей в последующих частях урока.

1. Структурная простота: VGG

VGG ввела парадигму максимизации глубины с использованием исключительно однородных и малых размеров ядер (исключительно 3x3 сверточных фильтров сложенных). Несмотря на высокую вычислительную сложность, его структурная однородность показала, что чистая глубина, достигаемая за счет минимальных изменений архитектуры, была главным фактором повышения производительности, укрепив важность малых полей восприятия.

2. Вычислительная эффективность: GoogLeNet (Inception)

GoogLeNet противостоял высокой вычислительной стоимости VGG, делая акцент на эффективности и многомасштабном извлечении признаков. Ключевая инновация — это модуль Inception, который выполняет параллельные свертки (1x1, 3x3, 5x5) и пулинг. Критически важно, что он использует свертки 1x1 как бутылочные горлышки для резкого снижения количества параметров и вычислительной сложности до дорогостоящих операций.

Ключевая инженерная проблема

Резидуальное обучение: ResNet

ResNet решил проблему деградации, введя тождественное отображение (пропускная связь). Этот не последовательный способ позволяет сети обучаться функции остатка $F(x)$ вместо прямого отображения $H(x)$, обеспечивая, что добавление новых слоев может только улучшить или сохранить производительность, значительно улучшая стабильность оптимизации.

Diagram showing a ResNet skip connection architecture

Вопрос 1

Какая архитектура уделяла внимание структурной однородности, используя преимущественно фильтры 3x3 для максимизации глубины?

AlexNet

VGG

GoogLeNet

ResNet

Вопрос 2

Свертка 1x1 в основном используется в модуле Inception для какой фундаментальной цели?

Повышение разрешения карты признаков

Нелинейная активация

Снижение размерности (бутылочное горлышко)

Пространственная внимательность

Критическая проблема: Проблема исчезающих градиентов

Инженерные решения для оптимизации

Объясните, как тождественное отображение ResNet фундаментально решает проблему исчезающих градиентов, выходя за рамки методов, таких как улучшенная инициализация весов или нормализация по батчам.

Вопрос 1

Опишите механизм, благодаря которому пропускная связь стабилизирует поток градиентов во время обратного распространения.

Решение:
Пропускная связь вводит тождественный член ($+x$) в выход, создавая аддитивный член в пути производной ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). Этот член гарантирует прямой путь для сигнала градиента, позволяя ему двигаться назад, обеспечивая, что верхние веса получают ненулевой, пригодный сигнал градиента, независимо от того, насколько малыми становятся градиенты через функцию остатка $F(x)$.